The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
Data-driven identification of differential equations is an interesting but challenging problem, especially when the given data are corrupted by noise. When the governing differential equation is a linear combination of various differential terms, the identification problem can be formulated as solving a linear system, with the feature matrix consisting of linear and nonlinear terms multiplied by a coefficient vector. This product is equal to the time derivative term, and thus generates dynamical behaviors. The goal is to identify the correct terms that form the equation to capture the dynamics of the given data. We propose a general and robust framework to recover differential equations using a weak formulation, for both ordinary and partial differential equations (ODEs and PDEs). The weak formulation facilitates an efficient and robust way to handle noise. For a robust recovery against noise and the choice of hyper-parameters, we introduce two new mechanisms, narrow-fit and trimming, for the coefficient support and value recovery, respectively. For each sparsity level, Subspace Pursuit is utilized to find an initial set of support from the large dictionary. Then, we focus on highly dynamic regions (rows of the feature matrix), and error normalize the feature matrix in the narrow-fit step. The support is further updated via trimming of the terms that contribute the least. Finally, the support set of features with the smallest Cross-Validation error is chosen as the result. A comprehensive set of numerical experiments are presented for both systems of ODEs and PDEs with various noise levels. The proposed method gives a robust recovery of the coefficients, and a significant denoising effect which can handle up to $100\%$ noise-to-signal ratio for some equations. We compare the proposed method with several state-of-the-art algorithms for the recovery of differential equations.
translated by 谷歌翻译
对于单眼360图像,深度估计是一个具有挑战性的,因为失真沿纬度增加。为了感知失真,现有方法致力于设计深层且复杂的网络体系结构。在本文中,我们提供了一种新的观点,该视角为360图像构建了可解释且稀疏的表示形式。考虑到几何结构在深度估计中的重要性,我们利用Contourlet变换来捕获光谱域中的显式几何提示,并将其与空间域中的隐含提示集成在一起。具体而言,我们提出了一个由卷积神经网络和Contourlet变换分支组成的神经轮廓网络。在编码器阶段,我们设计了一个空间光谱融合模块,以有效融合两种类型的提示。与编码器相反,我们采用了逆向方形变换,并通过学习的低通子带和带通道的定向子带来构成解码器中的深度。在三个流行的全景图像数据集上进行的实验表明,所提出的方法的表现优于最先进的方案,其收敛速度更快。代码可在https://github.com/zhijieshen-bjtu/neural-contourlet-network-for-mode上找到。
translated by 谷歌翻译
并非每个人都可以配备专业的摄影技巧和足够的拍摄时间,并且偶尔会有一些倾斜的图像。在本文中,我们提出了一项名为“旋转校正”的新的实用任务,以自动校正具有较高内容保真度的倾斜度,条件是旋转角度未知。可以轻松地将此任务集成到图像编辑应用程序中,从而使用户无需任何手动操作即可更正旋转的图像。为此,我们利用神经网络来预测可以扭曲倾斜图像的光流,以感知水平。然而,单个图像的像素光流量估计非常不稳定,尤其是在大角度倾斜图像中。为了增强其鲁棒性,我们提出了一种简单但有效的预测策略,以形成强大的弹性经纱。特别是,我们首先回归可以转化为可靠的初始光学流的网格变形。然后,我们估算残留的光流,以促进我们的网络赋予像素变形的灵活性,从而进一步纠正倾斜图像的细节。为了建立评估基准并训练学习框架,在场景和旋转角度上呈现了较大的多样性,呈现了全面的旋转校正数据集。广泛的实验表明,即使在没有角度的情况下,我们的算法也可以超越其他需要此事先的最先进的解决方案。代码和数据集将在https://github.com/nie-lang/rotationCorrection上找到。
translated by 谷歌翻译
最近,基于水平表示的全景语义分割方法优于基于投影的解决方案,因为可以通过在垂直方向上压缩球形数据来有效地消除畸变。但是,这些方法忽略了之前的失真分布,并且仅限于不平衡的接收场,例如,接收场在垂直方向上足够,并且在水平方向上不足。不同的是,沿另一个方向压缩的垂直表示可以提供隐式失真先验,并扩大水平接收场。在本文中,我们结合了两种不同的表示,并从互补的角度提出了一种新颖的360 {\ deg}语义分割解决方案。我们的网络包括三个模块:特征提取模块,一个双向压缩模块和一个集合解码模块。首先,我们从Panorama提取多尺度功能。然后,设计一个双向压缩模块,将特征压缩为两个互补的低维表示,这些表示提供了内容感知和失真。此外,为了促进双向特征的融合,我们在合奏解码模块中设计了独特的自我蒸馏策略,以增强不同特征的相互作用并进一步提高性能。实验结果表明,我们的方法的表现优于最先进的解决方案,在定量评估上至少提高了10 \%的改进,同时显示出视觉外观上最佳性能。
translated by 谷歌翻译
通过CNN取得了许多关于鱼眼图像矫正的重大进展。然而,受固定的接受场的约束,扭曲的全局分布和局部对称性尚未得到充分利用。为了利用这两个特征,我们引入了将鱼眼图像作为增强全球和局部感知的序列进行处理的FishFormer。我们根据鱼眼图像的结构特性对变压器进行了调整。首先,现有的正方形切片方法生成的贴片中的不均匀变形分布使网络混淆,从而导致了艰难的训练。因此,我们提出了一种环形切片方法,以维持每个斑块中失真的一致性,从而很好地感知了失真分布。其次,我们分析不同的失真参数具有自己的疗效域。因此,对本地区域的看法与全球一样重要,但是变压器对局部质地感知有弱点。因此,我们提出了一种新型的注意机制,以增强局部感知和纹理转移。我们的网络同时实现了全球感知,并以不同参数决定的本地感知重点。广泛的实验表明,与最先进的方法相比,我们的方法提供了卓越的性能。
translated by 谷歌翻译
Fisheye镜头由于其广泛的视野(FOV)而增加了计算摄影和辅助驾驶的应用。但是,鱼眼图像通常包含其成像模型引起的无效黑色区域。在本文中,我们提出了一种鱼眼方法,该方法通过超越无效的地区来扩展鱼眼镜头的FOV,从而改善了被捕获的场景的完整性。与矩形和未发生的图像相比,Fisheye图像支出面临两个挑战:不规则的绘画区域和失真合成。在观察鱼眼图像的径向对称性时,我们首先提出了一种极地支出策略,以推断从中心到外部区域的相干语义。这样的支出方式考虑了径向失真和圆边界的分布模式,从而提高了更合理的完成方向。对于失真合成,我们提出了一个螺旋失真感知的感知模块,其中学习路径与Fisheye图像的扭曲保持一致。随后,场景修订模块将生成的像素与估计的失真重新安排以匹配鱼眼图像,从而扩展了FOV。在实验中,我们在三个受欢迎的户外数据集上评估了拟议的fisheeex:CityScapes,BDD100K和Kitti和一个真实世界的Fisheye Image DataSet。结果表明,我们的方法显着优于最先进的方法,超出原始鱼眼图像的内容多约27%。
translated by 谷歌翻译
现有的全景深度估计方法基于卷积神经网络(CNN)的重点是消除全景畸变,由于CNN中的固定接受场而无法有效地感知全景结构。本文提出了全景变压器(名为PanoFormer),以估计全景图像中的深度,并带有球形域,可学习的令牌流和全景特定指标的切线斑块。特别是,我们将球形切线结构域上的斑块划分为令牌,以减少全景畸变的负面影响。由于几何结构对于深度估计是必不可少的,因此自我发项式模块通过额外的可学习令牌流重新设计。此外,考虑到球形域的特征,我们提出了两个全景特异性指标,以全面评估全景深度估计模型的性能。广泛的实验表明,我们的方法显着优于最先进的方法(SOTA)方法。此外,可以有效地扩展提出的方法以求解语义全景分割,这是类似的Pixel2像素任务。代码将可用。
translated by 谷歌翻译
整个腹部器官分割起着腹部损伤诊断,放射治疗计划的重要作用,并随访。然而,划定肿瘤学家所有腹部器官手工费时且非常昂贵的。近日,深学习型医学图像分割显示,以减少人工划定努力的潜力,但它仍然需要培训的大型精细注释的数据集。虽然在这个任务很多努力,但仍然覆盖整个腹部区域与整个腹腔脏器分割准确和详细的注解几个大的图像数据集。在这项工作中,我们建立了一个大型的\ textit【W】孔腹部\ textit {} OR甘斯\ textit {d} ataset(\ {textit WORD})的算法研究和临床应用的发展。此数据集包含150个腹部CT体积(30495片),并且每个卷具有16个机关用细像素级注释和涂鸦基于稀疏注释,这可能是与整个腹部器官注释最大数据集。状态的最先进的几个分割方法是在该数据集进行评估。而且,我们还邀请了临床肿瘤学家修改模型预测测量深度学习方法和真实的肿瘤学家之间的差距。我们进一步介绍和评价这一数据集一个新的基于涂鸦,弱监督分割。该工作腹部多器官分割任务提供了新的基准,这些实验可以作为基准对未来的研究和临床应用的发展。 https://github.com/HiLab-git/WORD:代码库和数据集将被释放
translated by 谷歌翻译
同性记估计是计算机视觉应用中的一个重要任务,例如图像拼接,视频稳定和相机校准。传统的同性恋估计方法大量取决于特征对应关系的数量和分布,导致低纹理场景中的稳健性差。相反,学习解决方案尝试学习强大的深度特征,但在具有低重叠率的场景中表现出不满意的性能。在本文中,我们通过设计上下文相关层(CCL)同时解决这两个问题。 CCL可以有效地捕获特征映射内的远程相关性,并且可以灵活地用于学习框架。此外,考虑到单位定位不能用视差将复杂的图像中的复杂空间转换表示,我们建议将多网权特征从全局预测到本地。此外,通过引入新的深度感知形状保存的损失,我们将我们的网络配备了深度感知能力。广泛的实验证明了我们在合成基准数据集和现实世界数据集中的最先进解决方案的方法的优越性。代码和模型将在https://github.com/nie-lang/multi-grid-deep-homography上获得。
translated by 谷歌翻译